rl科幻影视_B站影视

田渊栋离职Meta，最后一篇论文？

离职meta后，田渊栋团队最新论文放出了。他们提出的「三门理论」发现，RLVR微调只在小权重里发力，性能提升的同时又不破坏模型结构。

meta 论文 rl 掩码田渊 2025-11-18 10:21 49

清华团队：1.5B 模型新基线！用「最笨」的 RL 配方达到顶尖性能

核心发现：单阶段训练 + 固定超参数 = SOTA 性能 + 省一半算力意外之喜：训练曲线平滑得像教科书，4000 步没遇到任何 "典型问题"关键启示：充分 scale 的简单 baseline，可能比我们想象的强大得多

模型清华基线 rl rl配方 2025-11-13 08:05 13

成本不到8千美元！新浪微博1.5B小模型超越近万亿参数模型

一个仅有15亿参数、训练成本不足8000美元的小模型，在顶级数学竞赛基准上击败了参数量是其数百倍的，近万亿参数的DeepSeek-R1（6710亿参数）。甚至媲美Gemini 2.5 flash和claude Opus 4。

模型美元频谱 rl 新浪微博 2025-11-13 12:25 10

G社生图下Winter，直接美成精修了‼️

今日aespa成员Winter在首尔为RL“假日体验”开幕派对拍摄宣传照，一身撞色拼接格纹+长裤+复古绿色包包，G社生图直接变站姐，怼脸拍也美到令人惊叹！不得不夸，冬妹的皮肤状态也太好了，是白里透粉的小公举呀！

派对首尔 aespa rl 社生 2025-10-31 22:55 10

潞晨科技携手昇腾联合强化微调优化

在人工智能技术快速演进的浪潮中，大模型正从数据匹配迈向具备逻辑推理的“深度思考”阶段。这一能力让AI能够理解复杂问题，完成多步推理，并在数学、代码等多个领域展现巨大潜能。日前，潞晨科技携手昇腾团队，联合推出强化微调技术的昇腾优化方案，为深度思考模型的落地注入强

模型推理科技 rl 解耦 2025-10-31 20:10 10

让VLM学会“心中有世界”：VAGEN用多轮RL把视觉智能变成「世界模型」推理机器

当今的 AI 智能体（Agent）越来越强大，尤其是像 VLM（视觉-语言模型）这样能「看懂」世界的智能体。但研究者发现一个大问题：相比于只处理文本的 LLM 智能体，VLM 智能体在面对复杂的视觉任务时，常常表现得像一个「莽撞的执行者」，而不是一个「深思熟虑

模型推理 rl vlm vagen 2025-10-30 16:29 8

LLM比我们想象的更聪明

我们可以让标准的、非前沿的大型语言模型（LLM）比前沿模型，也就是所谓的“推理模型”更好，而无需任何额外的训练。这是否意味着过去一年的所有进展……都是多余的？

模型推理聪明 llm rl 2025-10-30 10:06 9

翁荔称为“优雅”的在策略蒸馏，如何颠覆成本与效率的传统认知？

然而两种主流后训练模式都各有致命缺陷：SFT和蒸馏虽然简单可并行，但这种填鸭式教育让模型在完美数据中变得僵化，无法应对自己犯错时的未知局面；RL赋予了模型探索能力，但稀疏奖励导致的大规模试错让成本激增。

优雅策略 rl prm kl 2025-10-30 10:12 11

昇腾+verl：基于昇腾超节点DeepSeek R1模型RL训练优化实践

现阶段，昇腾CANN致力于协助开发者基于NPU构建更高效的大模型强化学习训练平台，全面赋能强化学习场景深度训推优化。目前，昇腾CANN已经支持对接开源RL训练框架verl，能够适配GRPO、DAPO、PPO等多种RL训练算法。为充分释放verl在昇腾NPU集群

模型 deepseek rl deepseekr1 rl训练 2025-10-30 09:34 9

AI如何教无人机学会自主着陆？深度强化学习的中国实践与全球前沿

想象一下，你正站在喧闹的都市街头，一架无人机从天而降，精准地将包裹稳稳落在你手中的平台上。它没有GPS的粗糙指引，也没有预设的飞行路径，只是凭借“试错”的本能，学会了如何在风中保持平衡、如何判断高度、如何避免一头栽进水泥地。这不是科幻电影的桥段，而是深度强化学

无人机自主 dji rl drl 2025-10-30 07:00 11

刚刚，ThinkingMachinesLab博客提出在策略蒸馏，Qwen多次被点名

这消息来自 Thinking Machines Lab（简称 TML）的一篇新博客，作者是 Kevin Lu。文章讲的是把“在策略蒸馏”（on-policy distillation）真正放到训练里去做，并把实验和代码都开源了。TML 的 CEO Mira M

策略博客 rl aime qwen 2025-10-29 02:35 9

AlphaGo之父找到创造强化学习算法新方法：让AI自己设计

近日，谷歌 DeepMind 团队在 Nature 上发表的一篇论文探索了这一可能性。并且，他们得到了非常积极的结果：机器确实能够自主发现性能达到 SOTA 的强化学习规则，并且其表现优于人工设计的规则。

智能体算法 rl alphago atari 2025-10-28 12:29 9

Thinking Machine新研究刷屏！结合RL微调，小模型训练更具性价比

根据Mira Murati的提炼，原来他们提出了一种让小模型更懂专业领域的LLM（大语言模型）后训练方法——On-Policy Distillation （在线策略蒸馏）。

machine rl thinkingmachine thi 2025-10-28 10:13 8

Thinking Machine新研究刷屏！结合RL+微调，小模型训练更具性价比

根据Mira Murati的提炼，原来他们提出了一种让小模型更懂专业领域的LLM（大语言模型）后训练方法——On-Policy Distillation （在线策略蒸馏）。

machine rl thinkingmachine thi 2025-10-28 09:26 30

Meta重组元宇宙业务，负责人调任AI部门

Meta 首席技术官Andrew Bosworth周一在一份内部备忘录中告诉员工，领导其虚拟世界产品Meta Horizon的 Gabriel Aul和负责Meta 虚拟现实硬件的Ryan Cairns现在将领导公司的元宇宙业务。

meta rl horizon meta重组 msl 2025-10-28 07:45 12

DeepMind再登Nature：AI Agent造出了最强RL算法

人工智能（AI）的主要目标之一，是设计出能够像人类一样在复杂环境中自主预测、行动、最终实现目标的智能体（Agent）。智能体的训练离不开强化学习（RL），相关研究也已经持续了几十年，但让智能体自主开发高效的 RL 算法的目标始终难以实现。

算法 agent aiagent rl rl算法 2025-10-27 22:08 13

DeepMind再登Nature：AI Agent造出了最强RL算法！

人工智能（AI）的主要目标之一，是设计出能够像人类一样在复杂环境中自主预测、行动、最终实现目标的智能体（Agent）。智能体的训练离不开强化学习（RL），相关研究也已经持续了几十年，但让智能体自主开发高效的 RL 算法的目标始终难以实现。

算法 agent aiagent rl rl算法 2025-10-27 20:16 9

「不仅会想，还能准确去做」VLA-R1把「推理+行动」带进真实世界

在机器人与智能体领域，一个老大难问题是：当你让机器人 “把黄碗放进白色空篮子” 或 “从微波炉里把牛奶取出来放到餐桌上” 时，它不仅要看懂环境，更要解释指令、规划路径 / 可操作区域，并把这些推理落实为准确的动作。目前，很多 VLA（Vision-Langua

推理真实世界 rl cot iou 2025-10-27 19:11 10

X上63万人围观的Traning-Free GRPO：把GRPO搬进上下文空间学习

年初的 DeepSeek-R1，带来了大模型强化学习（RL）的火爆。无论是数学推理、工具调用，还是多智能体协作，GRPO（Group Relative Policy Optimization）都成了最常见的 RL 算法。

学习 api optimization rl grpo 2025-10-22 18:22 11

AGI前夜重磅：RL突破模型「认知上限」，真·学习发生了！

UC Berkeley、UW、AI2 等机构联合团队最新工作提出：在恰当的训练范式下，强化学习（RL）不仅能「打磨」已有能力，更能逼出「全新算法」级的推理模式。他们构建了一个专门验证这一命题的测试框架 DELTA，并观察到从「零奖励」到接近100%突破式跃迁的

模型 agi 前夜 rl agi前夜 2025-10-22 05:28 10